1 Analyse descriptive

1.1 Description de la population

Le jeu de données est constitué de 569 entrées. Chacune de ces entrées correspond à une personne atteinte d’un cancer du sein chez qui une biopsie de la tumeur a été effectuée. Les noyaux des cellules tumorales on ensuite été énalysé et les données recueillies sont présentées dans le tableau ci-dessous. Pour chaque variable, on a la moyenne (mean), l’erreur standard (SE) et la “pire”" valeur (worst, c’est-à-dire la moyenne des trois plus grandes valeurs de la variable).

Les 10 variables mesurées sur les noyaux des cellules sont :

  1. Radius : le rayon du noyau, qui est la moyenne des distances entre le centre du noyau et des points sur le périmètre
  2. Texture : ecart-ype des valeurs des echelles de gris
  3. Perimeter : le périmètre du noyau
  4. Area : l’aire du noyau
  5. Smoothness : la variation locale des longueurs du rayon
  6. Compactness, compacité : perimeter^2 / area - 1
  7. Concavity, concavité : sévérité des portions concaves du contour
  8. Concave points : nombre de portions concaves du contour
  9. Symmetry : la symétrie du noyau
  10. Fractal dimension : “coastline approximation” - 1

Chaque échantillon a un identifiant et un diagnostic associé à la tumeur (maligne, M ; ou bénin, B). Il y a 357 tumeurs bénines (62.74 %) et 212 (37.26 %) tumeurs malignes.

Le tableau suivant résume quelques paramètres statistiques pour chaque variables :

1.1.1 Densités de répartition

La densité de répartition des valeurs de chaque variables est raportée dans les graphiques suivants.

1.1.1.1 Malins et bénins confondus

On voit que pour certaines variables comme le périmètre ou le nombre de points concaves, on a une distribution bimodale.

Moyenne

SE

Worst

1.1.1.2 En fonction du diagnostic

Moyenne
Graphique 1 : répartition des moyennes pour chaque variable

Graphique 1 : répartition des moyennes pour chaque variable

SE
Graphique 2 : répartition des erreurs standard pour chaque variable

Graphique 2 : répartition des erreurs standard pour chaque variable

Worst
Graphique 3 : répartition des pires valeurs pour chaque variable

Graphique 3 : répartition des pires valeurs pour chaque variable

1.1.2 Corrélations

Pour savoir quelles sont les variables corrélées entre elles, on trace un diagrammes de corrélation :

Moyennes

SE

Worst

1.2 Description des variables

1.2.1 Diagnostic

C’est une variable catégorielle binaire qui renseigne sur le diagnostic associé à l’échantillon. Elle prend soit la valeur “B” pour désigner une tumeur bénine, soit la valeur “M” pour une tumeur maligne.

Ainsi, on voit que deux tiers des tumeurs sont bénignes.

1.2.2 Taille du noyau

Trois variables numériques continues renseignent sur la taille du noyau des cellules : le rayon (radius), le périmètre (perimeter) et l’aire (area). Elles sont corrélées entre elles et liées par des relations mathématiques.

Rayon

Périmètre

Aire

1.2.3 Aspect

L’aspect du noyau est raporté par deux variables numériques continues : la compacité et la texture. Comme pour la taille du noyau, les valeurs pour les tumeurs malignes sont plus élevées que pour les bénignes.

Compactness

La compacité est calculée par la formule suivante : \(\frac{perimeter^2}{area} - 1\)

Texture

La texture du noyau est calculée à partie de l’ecart-type des valeurs des échelles de gris.

1.2.4 Forme du noyau

Cinq variables numériques continues ont été mesurées pour rendre compte de la forme du noyau. On voit que la différence entre les cellules malignes et bénignes est la plus marquée pour les variables concavity et concave points. Les cellules tumorales malignes ont donc un noyau avec des contours plus concaves par rapport aux cellules bénines. La dimension fractale par contre n’est pas différente entre les deux types de cellules.

Smoothness

Concavity

Concave points

Symmetry

Fractal dimension

La dimension fractale est une variable numérique continue. Elle renseigne sur l’irrégularité des contours du noyau des cellules.

1.3 Variables pertinentes

La figure ci dessous montre les coefficients de corrélation enntre le diagnostic et les autres variables.

Pour sélectionner les variables pertinentes, nous avons choisi de ne garder que celles qui sont corrélées à plus de 50% avec le diagnostic. Comme le périmètre, l’aire et le rayon sont liés entre eux, nous n’avons gardé que le périmètre, qui est la variable la plus corrélée des trois avec le diagnostic. On obtient alors 9 variables pertinentes qui sont, de la plus corrélée à la moins corrélée : concave_points_worst, perimeter_worst, concave_points_mean, perimeter_mean, concavity_mean, concavity_worst, compactness_mean, compactness_worst, perimeter_se.

Le graphique ci dessous montre le nuage de point obtenu quand on croise les deux variables les plus corrélées :

2 Clustering

La deuxième étape de notre analyse consistera à utiliser des algorithmes de clustering pour identifier des groupes au sein des données.
Nous utiliserons trois algorithmes de clustering :

  • k-means clustering
  • clustering hiérarchique
  • GMM-EM

La démarche sera la même à chaque fois : on commencera d’abord avec les données “brutes” c’est-à-dire en utilisant toutes les variables et ensuite en utilisant seulement quelques variables sélectionnées. Notre but étant de pouvoir consituer des clusters proches des catégories diagnostiques (bénin/malin).

Avant de pouvoir utiliser les algorithmes de clustering, on doit d’abord standardiser les données à l’aide de la fonction scale.

2.1 K-means

L’algorithme produit deux clusters de tailles 375 et 194.

Le tableau suivant résume les performances de l’algorithme en utilisant les sommes inter-clusters et intra-clusters des carrés des distances entre les données.

Somme intra-cluster Somme totale Somme totale intra-cluster Somme inter-cluster
Cluster 1 : 4971.44
Cluster 2 : 6603.71
17040 11575.15 5464.85

2.2 Hierarchical clustering

##            
## wdbc_hclust   0   1
##           1  29 184
##           2 328  28

3 Classification

3.1 Arbres de décisions

##        
## dt.pred  0  1
##       0 72  7
##       1  2 33

3.2 k plus proches voisins

3.3 Random forest

3.4 Comparaison des modèles